자율 드론 기술의 최신 동향 분석 (2023-2025)
1. 고신뢰성 상태 추정을 위한 멀티 센서 융합 기술의 진화
자율 드론 시스템의 안정성과 정확성은 외부 환경과 자신의 상태를 얼마나 정밀하게 인지하는지에 달려있다. 이러한 상태 추정(State Estimation) 기술은 최근 몇 년간 전통적인 필터링 기법의 한계를 넘어서는 근본적인 패러다임 전환을 겪고 있다. 과거 확장 칼만 필터(Extended Kalman Filter, EKF)가 지배적이었던 시대는 저물고, 비선형성이 강한 3차원 공간 운동을 보다 수학적으로 엄밀하게 다루며, 비동기적이고 이질적인 센서 데이터를 효과적으로 융합하는 새로운 프레임워크들이 최첨단(State-of-the-Art, SOTA) 기술의 표준으로 자리 잡았다. 본 장에서는 EKF의 한계를 명확히 하고, 이를 극복하기 위한 불변 필터링(Invariant Filtering)과 인수 그래프 최적화(Factor Graph Optimization, FGO)라는 두 가지 핵심 패러다임을 심층적으로 분석한다. 또한, 이러한 최신 이론들이 어떻게 라이다-비전-관성 센서를 긴밀하게 결합한 SOTA 프레임워크에 구현되어 전례 없는 수준의 강인함과 정확성을 달성하는지 구체적인 사례를 통해 살펴본다.
1.1 EKF를 넘어서: 불변 필터링과 인수 그래프 최적화 패러다임
자율 시스템의 상태 추정 분야에서 오랫동안 표준으로 사용되어 온 확장 칼만 필터(EKF)는 그 계산 효율성에도 불구하고 근본적인 한계를 내포하고 있다. 특히 드론과 같이 회전(SO(3) 공간)을 포함하는 비유클리드 다양체(non-Euclidean manifold) 상에서 움직이는 시스템의 경우, EKF의 선형화 과정에서 발생하는 오차는 필터의 일관성(consistency)을 깨뜨리고, 특정 조건 하에서 추정치의 성능 저하 또는 발산을 초래할 수 있다.1 고성능 자율 드론 시스템이 더 높은 수준의 신뢰성을 요구함에 따라, 연구 커뮤니티는 이러한 EKF의 한계를 극복하기 위한 새로운 접근법으로 눈을 돌렸으며, 그 결과 불변 필터링과 인수 그래프 최적화가 SOTA의 핵심으로 부상했다.
1.1.1 불변 확장 칼만 필터 (Invariant Extended Kalman Filter, IEKF/EqF)
불변 필터링은 시스템이 가진 고유의 대칭성(symmetry)을 상태 추정 문제에 직접적으로 활용하는 혁신적인 접근법이다. 이 필터들은 리 군(Lie group)이라는 수학적 구조 위에서 상태를 모델링함으로써 EKF의 선형화 문제를 근본적으로 해결한다.1 불변 확장 칼만 필터(IEKF)와 이를 더 일반화한 등변 필터(Equivariant Filter, EqF)는 시스템의 대칭성을 이용해 잘못된 초기 상태 추정치에 대한 강인성을 확보하고 더 빠른 수렴 속도를 보인다.1
이러한 접근법의 가장 큰 장점은 일관성 보장에 있다. EKF와 같은 전통적인 필터들이 관측 불가능한 상태(unobservable states)가 존재할 때 일관성을 잃기 쉬운 반면, EqF는 이러한 상황에서도 자연스럽게 일관성을 유지한다.1 이는 드론의 관성 항법 시스템(Inertial Navigation System, INS)과 다중 GNSS(Global Navigation Satellite System) 데이터를 융합하는 시나리오에서 특히 중요하다. IEKF/EqF는 센서 바이어스와 같은 상태 변수를 대칭성 구조 내에서 올바르게 모델링하여, EKF 기반 접근법보다 월등한 성능과 일관성을 제공하는 것으로 입증되었다.1
1.1.2 인수 그래프 최적화 (Factor Graph Optimization, FGO)
인수 그래프 최적화(FGO)는 상태 추정에 대한 관점을 재귀적인 필터링에서 일괄 최적화(batch optimization)로 전환시킨 SOTA 패러다임이다. 칼만 필터가 현재 시점의 측정치만을 사용하여 상태를 갱신하는 재귀적 방식을 사용하는 반면, FGO는 특정 시간 창(sliding window) 내의 과거 상태와 모든 측정치를 동시에 고려하여 최적의 해를 찾는다.5 이 방식은 과거 상태를 다시 선형화(relinearization)하여 초기의 추정 오차를 수정할 수 있게 해주며, 모든 가용한 정보를 최대한 활용하여 월등히 높은 정확도를 달성한다.5
FGO 프레임워크는 상태 변수(예: 드론의 위치, 속도, 자세, 센서 바이어스)를 나타내는 ’변수 노드(variable nodes)’와 센서 측정치로부터 발생하는 제약 조건을 나타내는 ’인수 노드(factor nodes)’로 구성된 그래프 구조를 기반으로 한다.6 이 구조는 IMU 사전 적분(pre-integration), GNSS 측정(의사거리, 반송파 위상, 도플러 포함), 시각 주행 거리 측정(Visual Odometry, VO), 라이다(LiDAR) 스캔 등 다양한 종류와 각기 다른 주기를 가진 비동기적 센서 데이터를 자연스럽게 통합할 수 있는 강력한 유연성과 확장성을 제공한다.6 특히, 특정 센서에 장애가 발생하더라도 전체 시스템의 치명적인 고장으로 이어지지 않고 해당 인수 노드만 제거하여 추정을 계속할 수 있는 ‘플러그 앤 플레이(plug-and-play)’ 특성은 시스템의 강인성을 극대화한다.6
이처럼 상태 추정의 패러다임은 더 이상 EKF에 머물러 있지 않다. 최고의 정확성과 강인성을 요구하는 최신 자율 드론 시스템은 FGO 또는 IEKF/EqF와 같이 수학적으로 더 견고하고 정보 활용을 극대화하는 프레임워크를 기반으로 구축된다. 이는 단순한 점진적 개선이 아니라, 고신뢰성 항법을 위한 근본적인 철학의 변화를 의미한다.
1.2 SOTA 프레임워크: 라이다-비전-관성 센서의 긴밀한 결합
최신 자율 드론 기술의 정점은 개별 센서의 성능을 극대화하는 것을 넘어, 여러 이종 센서의 정보를 유기적으로 융합하여 각 센서의 단점을 상호 보완하고 전체 시스템의 강인성을 극대화하는 데 있다. 특히, 라이다, 비전 카메라, 관성 측정 장치(IMU)를 결합한 라이다-비전-관성(LiDAR-Visual-Inertial, LVI) 주행 거리 측정(Odometry) 기술은 SOTA의 핵심 분야로 자리 잡았다. 여기서 핵심은 ’느슨한 결합(loosely-coupled)’이 아닌 ‘긴밀한 결합(tightly-coupled)’ 방식의 융합이다. 느슨한 결합이 각 센서 모듈의 추정 결과물을 융합하는 반면, 긴밀한 결합은 각 센서의 원시 측정치(raw measurement)를 단일 최적화 문제 내에서 함께 처리하여 훨씬 정밀하고 강인한 상태 추정을 가능하게 한다.
1.2.1 사례 연구: R3LIVE와 그 진화
R3LIVE는 긴밀한 결합 방식의 LVI SLAM(Simultaneous Localization and Mapping) 기술이 어떻게 SOTA 성능을 달성하는지를 보여주는 대표적인 프레임워크다.11 R3LIVE의 아키텍처는 두 개의 핵심 서브시스템으로 구성되어 있으며, 이들의 상호작용을 통해 시너지를 창출한다.
-
라이다-관성 주행 거리 측정(LIO) 서브시스템: 이 모듈은 FAST-LIO 프레임워크를 기반으로 하며, 라이다와 IMU의 측정치를 융합하여 주변 환경의 기하학적 구조, 즉 3D 포인트 클라우드 맵을 구축하고 드론의 움직임을 추정한다. 라이다는 정밀한 거리 측정에 강점을 가지므로, LIO는 맵의 구조적 골격을 형성하는 역할을 담당한다.11
-
시각-관성 주행 거리 측정(VIO) 서브시스템: 이 모듈은 비전 카메라와 IMU 데이터를 사용하여 LIO가 구축한 기하학적 맵에 텍스처, 즉 색상 정보를 입히는 역할을 한다. 특히, R3LIVE는 현재 카메라 프레임과 이전에 구축된 맵 간의 광도 오차(photometric error)를 최소화하는 직접 방식(direct method)을 사용하여 시각 정보를 효율적으로 융합한다.12
R3LIVE의 진정한 혁신은 이 두 서브시스템이 상호 보완적으로 작동하여 극한의 환경에서도 강인함을 유지하는 데 있다. 예를 들어, 특징점이 없는 흰 벽과 같은 시각적으로 퇴화된(visually-degenerated) 환경에서는 VIO의 성능이 저하되지만, LIO가 안정적인 기하학 정보를 기반으로 정확한 상태 추정을 이어간다. 반대로, 긴 복도와 같이 기하학적으로 퇴화된(geometrically-degenerated) 환경에서는 LIO가 드리프트에 취약해지지만, VIO가 시각적 특징을 기반으로 이를 억제한다.11 R3LIVE는 심지어 라이다와 비전 정보가 동시에 열악한 환경에서도 안정적인 성능을 보이는 것으로 입증되었다.11
이러한 긴밀한 결합의 최종 결과물은 실시간으로 생성되는 정밀하고 조밀한 3D RGB 컬러 맵이다. 이 맵은 단순한 주행 기록이 아니라, 경로 계획, 정밀 검사, 가상현실(VR) 및 증강현실(AR) 등 다양한 후속 작업을 위한 풍부한 정보를 담고 있는 디지털 트윈(digital twin)으로서 즉시 활용될 수 있다.11 R3LIVE는 이후 적외선 카메라와 같은 추가 센서를 통합하는 R3LIVE++와 같은 프레임워크로 진화하며 그 가능성을 확장하고 있다.15
1.2.2 기타 주요 프레임워크 (예: LVI-SAM)
R3LIVE 외에도 LVI-SAM과 같은 프레임워크 역시 SOTA LVI SLAM 기술의 중요한 축을 담당한다. LVI-SAM은 인수 그래프 최적화(FGO)를 기반으로 구축되었으며, R3LIVE와 유사하게 독립적으로 작동할 수 있는 LIO와 VIO 서브시스템을 긴밀하게 결합하여 높은 정확성과 강인성을 달성한다.12 이러한 프레임워크들의 등장은 센서 융합의 패러다임이 단순히 정보를 더하는 것을 넘어, 각 센서의 강점을 극대화하고 약점을 상쇄하는 유기적인 시스템을 구축하는 방향으로 진화하고 있음을 명확히 보여준다. 센서들은 더 이상 개별적으로 작동하는 부품이 아니라, 하나의 통합된 인식 시스템으로서 시너지를 창출하여 어떤 단일 센서도 홀로 달성할 수 없는 수준의 강인함을 구현한다.
표 1: SOTA 멀티 센서 융합 프레임워크 비교 분석
| 프레임워크 | 핵심 알고리즘 | 주요 강점 | 주요 약점 | SOTA 사례 |
|---|---|---|---|---|
| EKF | 재귀적 필터링 (Recursive Filtering) | 낮은 계산 비용, 구현 용이성 | 비선형 시스템에서의 일관성 문제, 초기 오차에 민감 | 저가형 시스템, 비핵심 애플리케이션 |
| IEKF/EqF | 불변 필터링 (Invariant Filtering) | 일관성 보장, 초기 오차에 대한 강인성, 수학적 엄밀성 | EKF보다 높은 계산 복잡도 | 고신뢰성 GNSS/INS 융합 1 |
| FGO | 일괄 최적화 (Batch Optimization) | 높은 정확도, 유연성, 비동기 센서 융합 용이성, 플러그 앤 플레이 | 필터링 방식보다 높은 계산 비용 및 지연 시간 | LVI-SAM 12, 고정밀 매핑 시스템 6 |
| R3LIVE | 긴밀한 결합 LIO/VIO (ESKF 기반) | 실시간 RGB 컬러 맵핑, 센서 퇴화 환경에서의 극강의 강인성 | 특정 센서 조합(LiDAR, Vision, IMU)에 특화 | 고품질 3D 재구성, 실시간 디지털 트윈 생성 11 |
2. SLAM을 위한 3D 장면 표현의 패러다임 전환
자율 드론이 주변 환경을 인식하고 지도를 생성하는 SLAM 기술은 최근 몇 년간 신경망의 발전으로 혁명적인 변화를 맞이했다. 과거에는 점군(point cloud)이나 메시(mesh)와 같은 전통적인 기하학적 표현 방식이 주를 이루었으나, 이제는 희소한 입력으로부터 전례 없는 수준의 사실감과 디테일로 장면을 표현할 수 있는 학습 기반의 연속적인 함수 표현 방식이 SOTA를 주도하고 있다. 이 변화는 암시적 표현(implicit representation)인 뉴럴 래디언스 필드(Neural Radiance Fields, NeRF)에서 시작하여, 현재는 실시간 처리가 가능한 명시적 표현(explicit representation)인 3D 가우시안 스플래팅(3D Gaussian Splatting)으로 빠르게 이동하고 있다. 본 장에서는 이러한 기술적 진보의 계보를 추적하고, 특히 3D 가우시안 스플래팅이 어떻게 기존 SLAM 기술과 융합하여 3D 맵핑의 새로운 지평을 열고 있는지 심도 있게 분석한다.
2.1 암시적 신경 표현: NeRF 기반 SLAM의 영향
뉴럴 래디언스 필드(NeRF)는 3D 장면을 연속적인 볼륨 함수로 표현하고, 이를 심층 신경망(Deep Neural Network)으로 학습하여 임의의 시점에서 바라본 새로운 이미지를 생성하는 획기적인 기술이다.17 5차원 좌표(공간 좌표
x,y,z와 시선 방향 θ,ϕ)를 입력받아 해당 지점의 색상(RGB)과 밀도(σ)를 출력하는 MLP(Multi-Layer Perceptron)를 통해, NeRF는 복잡한 장면의 외형과 조명 효과를 매우 사실적으로 표현할 수 있다.
이러한 NeRF의 강력한 표현력은 SLAM 커뮤니티에 큰 영감을 주었다. NeRF 기반 SLAM은 카메라의 포즈와 장면을 표현하는 신경망의 파라미터를 렌더링 기반의 손실 함수를 통해 동시에 최적화하는 방식으로 작동한다.17 NeRF-SLAM 19이나 NICE-SLAM 18과 같은 선구적인 프레임워크들은 단일 모노큘러 카메라만으로도 조밀하고 사실적인 3D 맵을 구축할 수 있음을 보여주며, 기존의 기하학적 SLAM 방식으로는 불가능했던 수준의 재구성 품질을 달성했다.
하지만 NeRF 기반 SLAM은 명확한 한계를 가지고 있었다. 신경망을 학습하고 각 픽셀의 색상을 얻기 위해 시선(ray)을 따라 수많은 점을 샘플링하고 MLP를 반복적으로 쿼리하는 과정은 막대한 계산 비용을 요구한다. 이로 인해 실시간 SLAM 애플리케이션에 적용하기에는 어려움이 따랐으며, 이는 더 효율적인 새로운 표현 방식의 등장을 촉진하는 계기가 되었다.19
2.2 명시적 볼륨 표현: 3D 가우시안 스플래팅 SLAM의 부상
3D 가우시안 스플래팅(3D Gaussian Splatting, 3DGS)은 NeRF의 높은 사실감을 유지하면서도 실시간 렌더링을 가능하게 한 혁신적인 기술이다. 3DGS는 장면을 MLP와 같은 암시적 함수가 아닌, 위치, 모양, 색상, 불투명도를 가진 수많은 3D 가우시안 집합이라는 명시적인 표현으로 모델링한다.20 이 가우시안들을 2D 이미지 평면에 투영(splatting)하고 미분 가능한 래스터화(differentiable rasterization)를 통해 렌더링하는 과정은 MLP 쿼리 방식보다 훨씬 빠르기 때문에, SLAM과 같은 실시간 로보틱스 애플리케이션에 매우 적합하다.
2.2.1 SOTA 사례 연구: SplatMAP
SplatMAP은 조밀한 모노큘러 SLAM과 3DGS를 긴밀하게 통합하여 SOTA 성능을 달성한 대표적인 프레임워크다.20 SplatMAP의 성공은 단순히 두 기술을 나란히 배치한 것이 아니라, 고전적인 SLAM과 신경 렌더링 기술이 서로의 장점을 극대화하는 공생 관계를 구축했다는 데 있다. 이 프레임워크의 핵심 혁신은 다음과 같은 두 가지 메커니즘에 있다.
-
핵심 혁신 1: SLAM 정보를 활용한 적응형 조밀화 (SLAM-Informed Adaptive Densification, SIAD): 모노큘러 SLAM은 드론의 포즈를 추정하는 동시에, 각 픽셀에 대한 깊이 정보를 담은 조밀한 포인트 클라우드를 생성한다. 하지만 이 포인트 클라우드는 초기 단계나 관측이 부족한 영역에서 노이즈가 많고 부정확할 수 있다. 기존 3DGS는 이러한 기하학적 오류를 주로 렌더링된 이미지와 실제 이미지 간의 광도 오차(photometric loss)에 의존하여 수정하려 했지만, 이는 비효율적이다. SplatMAP의 SIAD는 이 문제를 정면으로 해결한다. SLAM 백엔드에서 제공하는 깊이 추정치의 신뢰도와 같은 고품질 기하학 정보를 직접 활용하여 3D 가우시안의 조밀화 과정을 지능적으로 안내한다. 신뢰도가 낮은 부정확한 포인트는 제거하고, SLAM 시스템에 의해 검증된 새로운 관측 영역에 가우시안을 추가함으로써, 3DGS 모델의 기하학적 골격이 처음부터 정확하게 구축되도록 보장한다.20
-
핵심 혁신 2: 기하학 유도 최적화 (Geometry-Guided Optimization): SplatMAP의 최적화 과정은 단순히 렌더링된 픽셀 색상을 맞추는 것을 넘어선다. SLAM의 깊이 맵으로부터 계산된 표면 법선 벡터(surface normal)와 같은 명시적인 기하학적 정보를 활용하는 손실 항(loss term)을 최적화 과정에 포함시킨다. 예를 들어, ’엣지 인식 법선 손실(edge-aware normal loss)’은 3DGS 모델이 장면의 실제 기하학적 구조에 부합하도록 강제한다. 이 접근법은 순수하게 외형에만 기반한 방법들에서 흔히 발생하는 ’고스팅(ghosting)’이나 흐릿한 표면과 같은 인공물(artifact)을 방지하고, 날카로운 엣지와 정교한 표면 디테일을 보존하여 기하학적으로 정확한 맵을 생성한다.20
이러한 혁신을 통해 SplatMAP은 Replica 및 TUM-RGBD와 같은 표준 벤치마크에서 기존 SOTA 방법들 대비 PSNR, SSIM, LPIPS와 같은 렌더링 품질 지표를 크게 향상시켰다.20 이는 광도적 사실감과 기하학적 정확성 사이의 간극을 성공적으로 메웠음을 의미하며, 3DGS-SLAM이 실시간 고품질 3D 재구성의 새로운 표준이 될 수 있음을 시사한다. SplaTAM 22을 비롯한 여러 동시대 연구들 27 역시 이러한 흐름을 뒷받침하며, 3DGS 기반 SLAM 생태계의 폭발적인 성장을 예고하고 있다.
이러한 발전은 3D 맵핑이 오프라인 후처리 과정에서 벗어나, 드론이 비행하는 동안 실시간으로 주변 환경의 사실적인 디지털 트윈을 생성하고 상호작용하는 온라인 기능으로 진화하고 있음을 보여준다. 고전적인 기하학적 SLAM의 강인한 추적 능력과 신경 렌더링의 뛰어난 표현력이 결합된 하이브리드 접근법이 현재 3D 장면 표현의 SOTA를 정의하고 있다.
표 2: SLAM을 위한 SOTA 3D 장면 표현 기법
| 표현 유형 | 핵심 원리 | 실시간성 | 재구성 품질 (기하학/광도) | 주요 장점 | 주요 단점 | SOTA SLAM 프레임워크 예시 |
|---|---|---|---|---|---|---|
| 전통적 (점군/메시) | 기하학적 프리미티브(점, 면)의 집합 | 가능 | 높음 / 낮음 | 기하학적 정확성, 가벼운 데이터 구조 | 텍스처 및 조명 효과 표현 불가, 희소성 | ORB-SLAM3, VINS-Mono |
| 암시적 신경 표현 (NeRF) | 장면을 연속적인 5D 래디언스 필드로 모델링하는 MLP | 제한적 | 중간 / 매우 높음 | 뛰어난 광도적 사실감, 복잡한 외형 표현 | 매우 높은 훈련 및 렌더링 비용 | NeRF-SLAM 19, NICE-SLAM 18 |
| 명시적 신경 표현 (3DGS) | 장면을 3D 가우시안 집합으로 모델링 | 매우 높음 | 높음 / 매우 높음 | 실시간 렌더링, 높은 사실감, 미분 가능 | NeRF보다 많은 메모리 사용, 동적 객체 처리 어려움 | SplatMAP 20, SplaTAM 26, GS-SLAM 26 |
3. 극한 환경에서의 인식 능력 확장
표준 RGB 카메라는 자율 드론의 핵심 센서이지만, 그 성능은 빛에 의존한다는 근본적인 한계를 가진다. 빠른 속도로 비행할 때 발생하는 모션 블러, 극단적인 명암 차이가 공존하는 환경, 그리고 비, 안개, 눈과 같은 악천후 상황은 표준 카메라의 인식 능력을 심각하게 저하시키거나 완전히 무력화시킨다. 이러한 한계를 극복하기 위해, 로보틱스 연구는 인간의 시각 시스템이나 다른 물리적 원리를 모방한 특수 센서 기술로 눈을 돌리고 있다. 본 장에서는 초고속 비행과 극한의 조명 조건에서 강점을 보이는 ’이벤트 카메라’와, 모든 기상 조건에서 강인한 자율성을 보장하는 ’4D 이미징 레이더’라는 두 가지 SOTA 인식 기술을 집중적으로 탐구한다. 이 기술들은 기존에 불가능하다고 여겨졌던 시나리오에서 드론의 자율 비행을 가능하게 하는 핵심 열쇠다.
3.1 이벤트 카메라를 이용한 초고속 및 고명암비 인식
이벤트 카메라는 인간의 시신경을 모방한 생체모방(bio-inspired) 센서로, 기존의 프레임 기반 카메라와는 작동 방식이 근본적으로 다르다.30 일정한 시간 간격으로 전체 이미지 프레임을 촬영하는 대신, 이벤트 카메라는 각 픽셀의 밝기 변화가 특정 임계값을 넘을 때만 비동기적으로 ‘이벤트’ 신호를 발생시킨다.30
이러한 비동기적 특성은 다음과 같은 강력한 장점을 제공한다:
-
초고속 시간 해상도: 마이크로초(μs) 단위의 지연 시간으로 매우 빠른 움직임을 포착할 수 있다.31
-
모션 블러 없음: 프레임 노출 시간이 없기 때문에, 아무리 빠른 움직임도 선명하게 감지한다.30
-
높은 동적 범위(High Dynamic Range, HDR): 매우 어두운 곳과 밝은 곳이 공존하는 장면에서도 정보를 손실 없이 포착할 수 있다.30
이러한 특성 덕분에 이벤트 카메라는 기존 카메라가 한계를 보이는 극한의 시나리오에서 독보적인 성능을 발휘한다. 특히, 빠른 속도로 게이트를 통과해야 하는 자율 드론 레이싱 분야에서는 모션 블러 때문에 일반 카메라를 사용하기 어렵지만, 이벤트 카메라는 선명한 엣지 정보를 제공하여 성공적인 비행을 가능하게 한다.34 실제로 이벤트 카메라 기반 시스템이 드론 레이싱 대회에서 우승한 사례도 있다.34 또한, 터널 진입/탈출 시나리오처럼 극심한 조도 변화가 발생하는 환경이나, 눈, 비, 먼지와 같은 동적인 가림(occlusion) 현상 뒤의 배경을 인식하는 데에도 이벤트 카메라가 활용될 수 있다.30
물론, 프레임이 아닌 희소하고 비동기적인 이벤트 스트림을 처리하기 위해서는 기존의 SLAM이나 VIO 알고리즘을 그대로 사용할 수 없다. 이벤트 데이터의 시공간적 특성을 활용하는 새로운 알고리즘 개발이 활발히 진행되고 있으며, 이는 이벤트 카메라 기반 자율 비행 기술의 핵심 연구 분야 중 하나다.30
3.2 4D 이미징 레이더를 이용한 전천후 자율성
비전 센서와 라이다는 자율 주행의 핵심 센서이지만, 비, 안개, 먼지, 눈과 같은 악천후 조건에서는 성능이 급격히 저하된다는 치명적인 약점을 공유한다.38 빛이나 레이저가 공기 중의 입자에 의해 산란되거나 흡수되기 때문이다. 이러한 환경에서 안정적인 자율성을 확보하기 위한 SOTA 기술은 바로 밀리미터파(mmWave)를 사용하는 레이더이다. 레이더파는 빛보다 파장이 길어 이러한 입자들을 투과할 수 있으므로, 기상 조건에 거의 영향을 받지 않는다.41
최신 기술인 ’4D 이미징 레이더’는 기존 레이더의 한계를 넘어, 각 탐지 지점에 대해 거리, 방위각, 고각뿐만 아니라 상대 속도(도플러) 정보까지 제공한다. 즉, 각 점이 속도 벡터를 가진 희소한 3D 포인트 클라우드를 생성하는 것이다.42
하지만 레이더를 드론 SLAM에 적용하는 것은 상당한 기술적 난제를 동반한다. 레이더 포인트 클라우드는 라이다에 비해 매우 희소하고 노이즈가 많아, ICP(Iterative Closest Point)와 같은 전통적인 스캔 정합(scan matching) 알고리즘이 잘 작동하지 않는다. 특히 드론이 높은 고도에서 비행할 경우, 이 문제는 더욱 심각해진다.38
이러한 문제를 해결하기 위한 SOTA 접근법은 ‘포인트-분포 정합(Point-to-Distribution Matching)’ 기법을 활용한 레이더-관성 주행 거리 측정(Radar-Inertial Odometry, RIO)이다.
-
ESKF 기반 긴밀한 결합 융합: 시스템의 핵심은 IMU의 예측값과 레이더 측정치를 긴밀하게 결합하는 오차 상태 칼만 필터(Error-State Kalman Filter, ESKF)이다.38
-
이중 측정치 통합: 필터는 레이더로부터 두 가지 핵심 잔차(residual)를 받아 상태를 보정한다. 첫째는 각 포인트의 도플러 속도 측정치를 이용한 ’도플러 속도 잔차’로, 이는 드론의 속도 추정치를 직접적으로 보정한다.38 둘째는 스캔 정합을 통해 얻는 ’기하학적 잔차’이다.
-
포인트-분포 정합: 희소성과 노이즈에 강인하게 대처하기 위해, 이 기법은 현재 스캔의 개별 포인트를 이전에 생성된 로컬 맵의 개별 포인트나 평면에 정합하는 대신, 로컬 맵을 가우시안 분포(Gaussian distribution)로 표현하고 현재 포인트를 이 분포에 정합한다. 이는 개별 포인트의 불확실성을 고려한 확률적인 대응 관계를 설정하는 방식으로, 노이즈와 이상치(outlier)에 훨씬 강인하여 희소한 데이터만으로도 정확한 움직임 추적을 가능하게 한다.38
결론적으로, 자율 드론의 인식 기술은 더 이상 단일 센서에 의존하지 않는다. SOTA 설계는 특정 운영 환경과 임무에 맞춰 최적의 센서 조합을 선택하고 융합하는 방향으로 나아가고 있다. 초고속 비행에는 이벤트 카메라를, 전천후 임무에는 4D 레이더를 우선적으로 고려하는 것처럼, 미래의 자율 시스템은 특정 환경에 특화된 이종 센서 슈트(heterogeneous sensor suite)를 통해 그 한계를 극복해 나갈 것이다. 또한, 센서가 가진 고유의 불완전성(예: 이벤트 데이터의 비동기성, 레이더 데이터의 희소성)은 역설적으로 이를 극복하기 위한 혁신적인 알고리즘 개발의 가장 강력한 동기가 되고 있다.
4. 엔드투엔드 학습과 생성형 AI의 부상
최근 자율 드론 기술 분야에서는 명시적으로 설계된 모듈식 파이프라인에서 벗어나, 전체 시스템을 하나의 학습 가능한 모델로 통합하려는 거대한 철학적 전환이 일어나고 있다. 심층 강화 학습(Deep Reinforcement Learning, DRL)은 인식, 계획, 제어로 이어지는 전통적인 스택을 하나의 신경망으로 압축하고 있으며, 생성형 AI(Generative AI) 기술, 특히 대규모 언어 모델(LLM), 비전-언어 모델(VLM), 그리고 확산 모델(Diffusion Model)은 고수준의 추론, 인간-로봇 상호작용, 심지어 데이터 수집 및 훈련 과정 자체를 혁신하고 있다. 본 장에서는 이러한 기술들이 어떻게 드론 자율성의 패러다임을 근본적으로 바꾸고 있는지 심층 분석한다.
4.1 모듈식 파이프라인에서 엔드투엔드 제어로: 심층 강화 학습
전통적인 로보틱스 파이프라인은 인식, 상태 추정, 경로 계획, 제어 등 여러 독립적인 모듈로 구성된다. 각 모듈은 복잡한 알고리즘으로 설계되며, 이들을 통합하고 튜닝하는 과정은 매우 어렵고 시간이 많이 소요된다.47
심층 강화 학습(DRL)은 이에 대한 대안으로, 카메라 이미지와 같은 원시 센서 입력을 모터 추력과 같은 저수준 제어 명령으로 직접 매핑하는 단일 신경망 정책(policy)을 학습하는 ‘엔드투엔드(end-to-end)’ 접근법을 제시한다.47 이 방식은 전체 시스템 아키텍처를 획기적으로 단순화한다.
최신 연구에서는 PPO(Proximal Policy Optimization)나 TD3(Twin Delayed Deep Deterministic Policy Gradient)와 같은 모델-프리(model-free) DRL 알고리즘이 3D 환경에서의 장애물 회피, 고속 기동 비행, 동적 표적 추적과 같은 복잡한 임무에 성공적으로 적용되고 있다.50 특히, GPS나 외부 센서에 대한 의존도를 줄이고 오직 드론에 장착된 카메라 이미지만을 입력으로 사용하여 제어 정책을 학습하는 ‘순수 비전 기반(pure vision-based)’ DRL 프레임워크는 완전한 자율성을 향한 중요한 진전을 보여준다.52
4.2 임무 합성을 위한 생성형 AI: 자연어 제어를 위한 LLM과 VLM
대규모 언어 모델(LLM)과 비전-언어 모델(VLM)은 인간과 로봇 간의 상호작용 방식을 근본적으로 바꾸고 있다. 사용자는 더 이상 복잡한 코드를 작성하거나 조종 스틱을 조작할 필요 없이, 자연스러운 언어로 드론에게 복잡한 임무를 지시할 수 있게 되었다.56
이러한 기능을 구현하기 위한 SOTA 소프트웨어 아키텍처는 일반적으로 드론의 PX4 비행 컨트롤러와 연동되는 컴패니언 컴퓨터 상에서 ROS2(Robot Operating System 2)를 실행하는 구조를 가진다. ROS2 노드는 Ollama와 같은 로컬 추론 엔진을 호스팅하여 사용자의 자연어 명령과 카메라의 시각적 데이터를 처리한다.57
자연어 명령이 실제 드론의 행동으로 변환되는 과정은 다음과 같다:
-
명령 입력: 사용자가 “주차장에 있는 빨간색 차를 점검해 줘“와 같은 고수준의 자연어 명령을 내린다.
-
시각적 기반 인식(Visual Grounding): VLM이 현재 카메라 피드를 분석하여 “빨간색 차“와 같은 언어적 개념을 실제 시각적 장면 속의 객체와 연결한다.57
-
임무 계획: LLM이 고수준 명령을 [경로점 X로 이동, 호버링, 카메라를 목표물로 향하기]와 같이 실행 가능한 하위 목표들의 순차적 시퀀스로 분해한다.57
-
명령 실행: 이 하위 목표들은 비행 명령으로 변환되어 ROS2를 통해 PX4 자동조종장치로 전송된다.57
최근 연구에서는 Gemma, Llama 등 다양한 오픈소스 LLM 및 VLM 제품군을 벤치마킹하여 유효한 비행 명령 생성 및 임무 성공률을 평가하고 있다.57 물론, 안전이 중요한 애플리케이션에서 모델의 ‘환각(hallucination)’ 현상을 방지하고 신뢰성을 확보하는 것은 여전히 중요한 과제로 남아있다.62
4.3 데이터 합성을 위한 생성형 AI: Sim-to-Real을 위한 확산 모델
강인한 드론 제어 정책을 훈련시키는 데 있어 가장 큰 병목 현상 중 하나는 대규모의 다양한 실제 비행 데이터를 수집하는 것이 어렵고, 비용이 많이 들며, 위험하다는 점이다.63
‘FlightDiffusion’ 프레임워크는 이러한 데이터 병목 문제를 해결하기 위해 생성형 모델들을 연쇄적으로 활용하는 데이터 생성 엔진을 제안하는 SOTA 사례이다.63 이 파이프라인은 다음과 같이 작동한다:
-
VLM 기반 임무 계획: 시작 이미지 한 장과 고수준의 목표가 주어지면, VLM(예: Gemini 2.5 Flash)이 장면을 해석하고 해당 기동을 위한 상세한 단계별 텍스트 계획을 생성한다.65
-
확산 모델 기반 비디오 생성: 시작 이미지와 VLM이 생성한 텍스트 계획을 조건으로, 이미지-비디오(I2V) 확산 모델이 드론이 계획된 기동을 성공적으로 수행하는 사실적이고 물리적으로 타당한 1인칭 시점(FPV) 비디오를 생성한다.64
-
SLAM 기반 상태-행동 추출: 생성된 비디오는 ORB-SLAM3와 같은 고전적인 SLAM 알고리즘에 의해 처리된다. SLAM 시스템은 가상 카메라의 움직임을 추적하여, 해당 움직임을 만들어내는 데 필요한 정확한 포즈(상태)와 속도 명령(행동) 시퀀스를 추출한다.63
이 과정의 최종 결과물은 다양한 복잡한 기동에 대한 방대한 양의 자동 레이블링된 상태-행동 쌍(state-action pair) 데이터셋이다. 이 데이터셋은 모방 학습(imitation learning)을 통해 제어 정책을 훈련시키는 데 사용될 수 있으며, 이 방식으로 훈련된 정책은 매우 뛰어난 Sim-to-Real 전환 성능을 보인다.64
이러한 기술들의 융합은 ’생성형 자율성 스택(Generative Autonomy Stack)’이라는 새로운 패러다임의 등장을 예고한다. VLM이 고수준 추론을 담당하고, 확산 모델이 가상 훈련 데이터를 생성하며, DRL이 이 데이터를 바탕으로 실제 제어 정책을 학습하는 이 흐름은, 인간의 높은 수준의 의도에서부터 로봇의 저수준 제어에 이르는 전 과정을 자동화할 잠재력을 가지고 있다. 또한, LLM의 통합은 제어의 추상화를 통해 로보틱스의 대중화를 이끌고 있다. 더 이상 전문적인 프로그래밍이나 조종 기술이 아닌, 자연스러운 대화를 통해 누구나 드론을 활용할 수 있게 됨으로써 기술의 접근성을 획기적으로 높이고 있다.
표 3: 드론 자율성을 위한 신흥 AI 패러다임
| AI 패러다임 | 해결하는 문제 | 핵심 방법론 | 주요 영향 | SOTA 프레임워크 예시 |
|---|---|---|---|---|
| 심층 강화 학습 (DRL) | 동적 환경에서의 복잡한 제어 | 시행착오를 통한 엔드투엔드 정책 학습 | 인식-계획-제어 파이프라인의 통합 및 단순화 | VTD3 52, PPO 기반 항법 50 |
| LLM/VLM 제어 | 고수준 임무 계획 및 인간-로봇 상호작용(HRI) | 자연어/시각 정보를 행동 시퀀스로 변환 | 제어의 추상화, 비전문가를 위한 접근성 향상 | ROS2+Ollama 기반 에이전트 57 |
| 확산 모델 합성 | 데이터 부족 및 Sim-to-Real 격차 | 텍스트/이미지 조건 기반의 사실적인 비행 비디오 생성 | 안전하고 저렴한 대규모 훈련 데이터셋 자동 생성 | FlightDiffusion 63 |
5. 고급 기능 및 미래 방향
자율 드론 기술은 핵심적인 항법 문제를 넘어, 보다 지능적이고 강인하며 지속 가능한 자율성을 구현하기 위한 고차원적인 인지 기능으로 발전하고 있다. 이제 드론은 단순히 기하학적인 공간을 이동하는 것을 넘어, 주변 환경을 의미론적으로 이해하고(semantically-aware), 계절이나 낮과 밤의 변화와 같은 극적인 환경 변화 속에서도 장기간에 걸쳐 안정적으로 임무를 수행하는 능력을 갖추기 시작했다. 본 장에서는 드론이 어떻게 환경의 ’의미’를 학습하고, 시간의 흐름에 따른 변화에 적응하여 진정한 장기 자율성(long-term autonomy)을 확보해 나가는지에 대한 최신 연구 동향을 탐구한다.
5.1 의미론적 인지 항법: 기하학을 넘어서
진정한 지능을 갖추기 위해, 드론은 단순히 장애물의 형태와 위치(기하학)를 아는 것을 넘어, 자신이 보고 있는 것이 ’무엇’인지(의미)를 이해해야 한다. 이러한 의미론적 이해는 인간 중심의 복잡한 임무를 수행하는 데 필수적이다.70
5.1.1 응용 1: 안전 착륙 지점 탐지
안전 착륙 지점 탐지는 의미론적 이해의 가장 중요하고 실용적인 응용 분야 중 하나다. 드론은 단순히 평평한 표면을 찾는 것을 넘어, 지형의 종류를 식별하고 분류하여 착륙의 안전성을 평가할 수 있어야 한다.
-
방법론: 이 문제는 주로 ‘의미론적 분할(semantic segmentation)’ 작업으로 정의된다. 심층 신경망이 드론 카메라의 이미지를 분석하여 각 픽셀을 건물, 도로, 초목, 수면 등과 같은 사전 정의된 클래스로 분류한다.71
-
위험 평가: 이렇게 분류된 의미론적 클래스들은 위험 또는 안전 점수로 매핑된다. 예를 들어, 포장도로나 잔디는 낮은 위험도를, 수면이나 움직이는 차량은 높은 위험도를 갖는다.71 이를 통해 드론은 미지의 환경이나 비상 상황에서 최적의 착륙 지점을 선택하는 데 사용할 수 있는 연속적인 안전 지도를 생성할 수 있다.73 여기에 라이다와 같은 센서 정보를 융합하면, 의미론적으로 안전하다고 판단된 후보 지역의 평탄도와 같은 기하학적 정보를 정밀하게 검증하여 최종 착륙 결정을 내릴 수 있다.74
5.1.2 응용 2: 의미론적 지형 추적
AI 기반 지형 추적 기술은 센서(라이다, 레이더 등)와 의미론적 이해를 결합하여 특정 유형의 지형 위에서 일정한 고도를 유지하는 기술이다. 예를 들어, 정밀 농업 분야에서 드론은 나무와 같은 장애물은 무시하면서 농작물 위에서만 일정한 고도를 유지하며 비행할 수 있어, 농약이나 비료를 균일하게 살포하는 것이 가능하다.75
5.2 장기 자율성: 극심한 외형 변화를 극복하는 시각적 위치 인식
비전 기반 위치 인식의 가장 큰 난제 중 하나는 시간의 흐름에 따른 환경의 외형 변화이다. 여름에 제작된 지도는 겨울에는 눈으로 덮여 전혀 다르게 보이며, 낮에 촬영된 장면은 밤에는 알아볼 수 없다. 이러한 극심한 변화는 전통적인 특징점 기반 SLAM 시스템의 위치 추적 실패를 유발한다.76
5.2.1 시각적 장소 인식 (Visual Place Recognition, VPR)
VPR은 이러한 장기 자율성 문제를 해결하기 위한 핵심 기술이다. VPR의 목표는 현재 보고 있는 쿼리 이미지(query image)가 극심한 외형 변화(계절, 조명 등)에도 불구하고, 지리 정보가 태깅된 데이터베이스 내의 어떤 장소와 일치하는지를 인식하는 것이다.78 이는 오랜 시간이 지난 후에도 드론이 기존 맵 내에서 자신의 위치를 다시 찾는(re-localization) 데 결정적인 역할을 한다.
5.2.2 SOTA VPR 기법
최신 VPR 연구는 심층 학습을 통해 환경 변화에 불변하는(invariant) 특징을 학습하는 데 초점을 맞추고 있다.
-
Patch-NetVLAD: 이 기법은 지역 특징점(local descriptor)과 전역 특징점(global descriptor)의 장점을 결합한다. NetVLAD 아키텍처를 기반으로 이미지 내의 여러 패치(patch) 수준에서 특징을 추출하고, 이를 다양한 스케일에서 융합하는 기법을 도입하여 계절, 조명, 시점 변화에 매우 강인한 기술자를 생성한다.80
-
CosPlace: 이 프레임워크는 VPR을 위한 새로운 학습 패러다임을 제시한다. 복잡하고 계산 비용이 높은 대조 학습(contrastive learning) 대신, VPR 문제를 대규모 분류(classification) 문제로 치환하여 학습한다. 이 접근법은 어려운 네거티브 샘플 마이닝(negative mining) 과정 없이도 방대한 데이터셋을 효과적으로 학습할 수 있게 하여, 매우 판별력 높고 일반화 성능이 뛰어난 특징을 학습하게 한다.79
이러한 연구들은 RobotCar Seasons, CMU Seasons, UTIAS Winter와 같이 의도적으로 극심한 장기적 변화를 담은 도전적인 벤치마크 데이터셋의 등장으로 더욱 가속화되고 있다.76
결론적으로, 자율 드론 기술의 SOTA는 공간적 항법을 넘어 시간적 지속성까지 포함하는 개념으로 확장되고 있다. 단순히 기하학적 세계를 항해하는 비행 센서를 넘어, 환경 내 객체의 의미와 기능을 추론하는 인지적 에이전트로 진화하고 있다. 이는 ’이 평평한 지역이 저 평평한 지역보다 더 낫다. 왜냐하면 저곳은 도로가 아닌 잔디이기 때문이다’와 같은 가치 판단을 가능하게 하며, 단순한 경로 탐색을 넘어선 새로운 차원의 자율 임무를 열어줄 것이다. 진정한 자율성은 단일 세션에서의 완벽한 비행이 아니라, 수 주, 수개월, 수년에 걸쳐 변화하는 환경 속에서 꾸준히 자신의 임무를 수행할 수 있는 능력으로 정의될 것이다.
6. 종합 및 미래 전망
본 보고서는 2023년부터 2025년에 이르는 기간 동안 자율 드론 기술 분야에서 나타난 최신 동향과 패러다임 전환을 심층적으로 분석했다. 분석 결과, 현재 SOTA 기술은 개별 기술의 점진적 개선을 넘어, 여러 분야의 기술들이 융합되고 상호작용하며 새로운 자율성 스택을 형성하는 방향으로 나아가고 있음을 명확히 보여준다.
6.1 핵심 기술의 융합
보고서에서 다룬 각기 다른 분야의 기술들은 독립적으로 발전하는 것이 아니라 서로 융합되어 시너지를 창출하고 있다.
-
3DGS-SLAM과 DRL의 융합: 3D 가우시안 스플래팅 SLAM이 실시간으로 생성하는 사실적인 3D 맵은 심층 강화 학습 에이전트를 훈련시키기 위한 이상적인 시뮬레이션 환경을 제공한다. 이는 Sim-to-Real 문제를 해결하는 데 있어 중요한 돌파구가 될 수 있다.
-
의미론적 이해와 LLM의 결합: 안전 착륙 지점 탐지와 같은 의미론적 이해 능력은 LLM 기반 임무 플래너에게 “안전한 곳에 착륙하라“와 같은 추상적인 명령을 이해하고 실행하는 데 필요한 중요한 컨텍스트를 제공한다.
-
’생성형 자율성 스택’의 등장: 본 보고서에서 확인된 가장 중요한 융합 트렌드는 VLM(추론) → 확산 모델(가상 데이터 생성) → DRL(정책 학습)로 이어지는 ’생성형 자율성 스택’이다. 이 스택은 인간의 고수준 의도에서부터 로봇의 저수준 제어에 이르는 전 과정을 AI가 주도하여 자동화할 수 있는 잠재력을 보여준다.
6.2 체화된 AI(Embodied AI)의 부상
이러한 기술적 융합이 가리키는 거시적인 트렌드는 드론이 원격 조종되는 ’도구’에서 진정한 ‘체화된 AI(Embodied AI)’ 에이전트로 진화하고 있다는 것이다. 미래의 드론은 풍부한 다중 모드 센서로 환경을 정밀하게 인식하고, 그 의미를 이해하며, 물리적으로 상호작용하고, 자연어로 소통하는 능력을 갖춘 자율적인 주체가 될 것이다.
6.3 미래 연구 방향 및 도전 과제
이러한 혁신적인 발전에도 불구하고, 완전한 자율성을 실현하기 위해서는 여러 도전 과제들이 남아있다. 본 분석을 바탕으로 다음과 같은 미래 연구 방향을 제시할 수 있다.
-
인증 가능한 AI(Certifiable AI): 특히 LLM과 같이 복잡하고 비결정적인 학습 기반 시스템을 어떻게 안전이 중요한(safety-critical) 임무에 대해 검증하고 인증할 것인가? 이는 도심 항공 모빌리티(UAM)와 같은 분야에서 상용화를 위한 핵심적인 과제이다.85
-
온보드 컴퓨팅의 한계: 3DGS, LLM, 확산 모델과 같이 점점 더 커지고 복잡해지는 모델들을 어떻게 크기, 무게, 전력(SWaP) 제약이 심한 드론 하드웨어에 탑재하여 실시간으로 구동할 것인가?.36
-
평생 학습(Lifelong Learning): 드론이 장기간의 임무 수행 중에 새로운 경험으로부터 지속적으로 학습하고 적응하면서도, 과거의 지식을 잊어버리는 ‘파국적 망각(catastrophic forgetting)’ 문제를 어떻게 해결할 것인가?
-
다중 에이전트 시스템(Multi-Agent Systems): 본 보고서에서 논의된 SOTA 단일 에이전트 기술들을 드론 군집이나 협력적인 다중 드론 시스템으로 어떻게 확장할 것인가? 분산된 인식과 조율, 그리고 통신 제약 하에서의 의사결정은 여전히 중요한 연구 분야이다.86
결론적으로, 자율 드론 기술은 현재 기하급수적인 발전의 변곡점에 서 있다. 고전적인 로보틱스 알고리즘의 견고함과 최신 AI 기술의 표현력 및 추론 능력이 결합되면서, 과거에는 상상하기 어려웠던 수준의 자율성이 가시권에 들어오고 있다. 위에 제시된 도전 과제들을 해결하기 위한 지속적인 연구는 드론을 우리 사회의 필수적인 부분으로 만드는 데 결정적인 역할을 할 것이다.
7. 참고 자료
- Revisiting multi-GNSS Navigation for UAVs – An Equivariant …, https://www.aau.at/wp-content/uploads/2023/10/2023_ICAR_EqF_Multi_GNSS-final_CNS.pdf
- Architecture of EKF for multi-sensor fusion | Download Scientific Diagram - ResearchGate, https://www.researchgate.net/figure/Architecture-of-EKF-for-multi-sensor-fusion_fig3_228450748
- Research on Multi-sensor Fusion for UAV Localization - ResearchGate, https://www.researchgate.net/publication/372022034_Research_on_Multi-sensor_Fusion_for_UAV_Localization
- [2310.01844] Semi-Aerodynamic Model Aided Invariant Kalman Filtering for UAV Full-State Estimation - arXiv, https://arxiv.org/abs/2310.01844
- Factor graph optimization for GNSS/INS integration: A comparison with the extended Kalman filter - The Institute of Navigation, https://navi.ion.org/content/68/2/315
- UAV Localization Algorithm Based on Factor Graph Optimization in …, https://www.mdpi.com/1424-8220/22/15/5862
- Integrity Monitoring Algorithm for Low-Altitude UAV GNSS/INS Tightly Coupled Navigation Based on Factor Graph Optimization | Technical Program - ION GNSS+ 2025, https://www.ion.org/gnss/abstracts.cfm?paperID=15827
- A Factor Graph Optimization Method for High-Precision IMU-Based Navigation System | Request PDF - ResearchGate, https://www.researchgate.net/publication/372259814_A_factor_graph_optimization_method_for_high-precision_IMU_based_navigation_system
- Monocular Visual-Inertial Odometry (VIO) Using Factor Graph - MATLAB & Simulink, https://www.mathworks.com/help/nav/ug/monocular-visual-inertial-odometry-using-factor-graph.html
- Resilient Factor Graph-Based GNSS/IMU/Vision/Odo Integrated Navigation Scheme Enhanced by Noise Approximate Gaussian Estimation in Challenging Environments - MDPI, https://www.mdpi.com/2072-4292/16/12/2176
- hku-mars/r3live: A Robust, Real-time, RGB-colored, LiDAR … - GitHub, https://github.com/hku-mars/r3live
- A Robust, Real-time, RGB-colored, LiDAR-Inertial-Visual tightly-coupled - Jiarong Lin, https://jiaronglin.com/uploads/r3live.pdf
- R^3LIVE: A Robust, Real-time, RGB-colored, LiDAR-Inertial-Visual tightly-coupled state Estimation and mapping package | Jiarong Lin, https://jiaronglin.com/publication/paper_r3live/
- R-LVIO: Resilient LiDAR-Visual-Inertial Odometry for UAVs in GNSS-denied Environment, https://www.mdpi.com/2504-446X/8/9/487
- A Novel Multi-Sensor Nonlinear Tightly-Coupled Framework for Composite Robot Localization and Mapping - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC11598296/
- LVI-Fusion: A Robust Lidar-Visual-Inertial SLAM Scheme - MDPI, https://www.mdpi.com/2072-4292/16/9/1524
- SLAM Meets NeRF: A Survey of Implicit SLAM Methods - MDPI, https://www.mdpi.com/2032-6653/15/3/85
- UAV See, UGV Do: Aerial Imagery and Virtual Teach Enabling Zero-Shot Ground Vehicle Repeat - arXiv, https://arxiv.org/html/2505.16912v1
- MIT Open Access Articles NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields, https://dspace.mit.edu/bitstream/handle/1721.1/153646/2210.13641.pdf?sequence=2&isAllowed=y
- SplatMAP: Online Dense Monocular SLAM with 3D Gaussian Splatting - arXiv, https://arxiv.org/html/2501.07015v1
- SplatMAP: Online Dense Monocular SLAM with 3D Gaussian Splatting - ResearchGate, https://www.researchgate.net/publication/387976191_SplatMAP_Online_Dense_Monocular_SLAM_with_3D_Gaussian_Splatting
- SplaTAM: Splat Track & Map 3D Gaussians for Dense RGB-D SLAM - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2024/papers/Keetha_SplaTAM_Splat_Track__Map_3D_Gaussians_for_Dense_RGB-D_CVPR_2024_paper.pdf
- [2501.07015] SplatMAP: Online Dense Monocular SLAM with 3D Gaussian Splatting - arXiv, https://arxiv.org/abs/2501.07015
- [Literature Review] SplatMAP: Online Dense Monocular SLAM with 3D Gaussian Splatting, https://www.themoonlight.io/en/review/splatmap-online-dense-monocular-slam-with-3d-gaussian-splatting
- Rong Liu’s research works | University of California, Los Angeles and other places, https://www.researchgate.net/scientific-contributions/Rong-Liu-2282285912
- SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM, https://spla-tam.github.io/
- The 3D Gaussian Splatting SLAM System for Dynamic Scenes Based on LiDAR Point Clouds and Vision Fusion - MDPI, https://www.mdpi.com/2076-3417/15/8/4190
- DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery - CVF Open Access, http://openaccess.thecvf.com/content/CVPR2025/papers/Tang_DroneSplat_3D_Gaussian_Splatting_for_Robust_3D_Reconstruction_from_In-the-Wild_CVPR_2025_paper.pdf
- RD-SLAM: Real-Time Dense SLAM Using Gaussian Splatting - MDPI, https://www.mdpi.com/2076-3417/14/17/7767
- Event-based Vision, Event Cameras, Event Camera SLAM - Robotics and Perception Group - UZH, https://rpg.ifi.uzh.ch/research_dvs.html
- Event-based Vision - Guillermo Gallego - Google Sites, https://sites.google.com/view/guillermogallego/research/event-based-vision
- uzh-rpg/event-based_vision_resources: Event-based Vision Resources. Community effort to collect knowledge on event-based vision technology (papers, workshops, datasets, code, videos, etc) - GitHub, https://github.com/uzh-rpg/event-based_vision_resources
- VIO-GO: optimizing event-based SLAM parameters for robust performance in high dynamic range scenarios - Frontiers, https://www.frontiersin.org/articles/10.3389/frobt.2025.1541017/full
- Peer-Reviewed Papers - Robotics and Perception Group - UZH, https://rpg.ifi.uzh.ch/publications.html
- Autonomous Drone Racing: A Survey | Aerial-Core, https://aerial-core.eu/wp-content/uploads/2023/10/Past-Present-and-Future-of-Autonomous-Drone-Racing-A-Survey.pdf
- Event-Assisted Object Tracking on High-Speed Drones in Harsh Illumination Environment, https://www.mdpi.com/2504-446X/8/1/22
- Software/Datasets - Robotics and Perception Group - UZH, https://rpg.ifi.uzh.ch/software_datasets.html
- Robust 4D Radar-aided Inertial Navigation for Aerial Vehicles - arXiv, https://arxiv.org/html/2502.15452v1
- Indoor Localization and Mapping with 4D mmWave Imaging Radar - CMU Robotics Institute, https://www.ri.cmu.edu/publications/indoor-localization-and-mapping-with-4d-mmwave-imaging-radar/
- Drone Sensor Fusion for Autonomous Navigation - XRAY - GreyB, https://xray.greyb.com/drones/sensor-fusion-navigation
- Zadar Labs 4D imaging radar at #ces2025 SLAM, and radar-camera fusion - YouTube, https://www.youtube.com/watch?v=dDYvwbwSz-w
- 4D Millimeter-Wave Radar in Autonomous Driving: A Survey - arXiv, https://arxiv.org/html/2306.04242v3
- The Evolution of 4D Imaging Radar: Unlocking the Future of Autonomous Driving, https://www.nxp.com/company/about-nxp/smarter-world-blog/BL-4D-IMAGING-RADAR
- Robust 4D Radar-aided Inertial Navigation for Aerial Vehicles, https://arxiv.org/pdf/2502.15452
- [Literature Review] Robust 4D Radar-aided Inertial Navigation for Aerial Vehicles, https://www.themoonlight.io/en/review/robust-4d-radar-aided-inertial-navigation-for-aerial-vehicles
- Tightly-Coupled EKF-Based Radar-Inertial Odometry, https://www.aau.at/wp-content/uploads/2022/08/Tightly-Coupled_EKF-Based_Radar-Inertial_Odometry-Odometry.pdf
- Deep Reinforcement Learning-Based End-to-End Control for UAV Dynamic Target Tracking - PMC - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC9680462/
- End-to-End Deep Reinforcement Learning for Image-Based UAV Autonomous Control, https://www.mdpi.com/2076-3417/11/18/8419
- End-to-End Deep Reinforcement Learning for Image-Based UAV Autonomous Control, https://www.researchgate.net/publication/354517060_End-to-End_Deep_Reinforcement_Learning_for_Image-Based_UAV_Autonomous_Control
- Autonomous Drone Takeoff and Navigation Using Reinforcement Learning - SciTePress, https://www.scitepress.org/Papers/2024/122963/122963.pdf
- Cost-Effective Autonomous Drone Navigation Using Reinforcement Learning: Simulation and Real-World Validation - MDPI, https://www.mdpi.com/2076-3417/15/1/179
- (PDF) A Vision-Based End-to-End Reinforcement Learning Framework for Drone Target Tracking - ResearchGate, https://www.researchgate.net/publication/385486327_A_Vision-Based_End-to-End_Reinforcement_Learning_Framework_for_Drone_Target_Tracking
- Extended Abstract - CS 224R Deep Reinforcement Learning, https://cs224r.stanford.edu/projects/pdfs/CS224R_final_report__4_%20(1).pdf
- A Vision-Based End-to-End Reinforcement Learning Framework for Drone Target Tracking, https://www.mdpi.com/2504-446X/8/11/628
- Autonomous UAV Visual Navigation Using an Improved Deep Reinforcement Learning, https://www.researchgate.net/publication/381209390_Autonomous_UAV_Visual_Navigation_Using_an_Improved_Deep_Reinforcement_Learning
- TypeFly: Flying Drones with Large Language Model, https://typefly.github.io/
- Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent - arXiv, https://arxiv.org/html/2506.07509v1
- Multimodal AI for UAV: Vision–Language Models in Human– Machine Collaboration - MDPI, https://www.mdpi.com/2079-9292/14/17/3548
- Integrating LLMs and Drones - ADPM Tech, https://adpmtech.com/2024/07/09/integrating-llms-and-drones-a-pioneering-approach-by-adpm-drones/
- Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent - ResearchGate, https://www.researchgate.net/publication/392531167_Taking_Flight_with_Dialogue_Enabling_Natural_Language_Control_for_PX4-based_Drone_Agent
- Custom flight modes using PX4 and ROS 2 - RIIS LLC, https://www.riis.com/blog/custom-flight-modes-using-px4-and-ros2
- Large Language Model Integration for Achieving Dynamic Drone Flight - Medium, https://medium.com/d-classified/large-language-model-integration-for-achieving-dynamic-drone-flight-10c76bd44ef1
- FlightDiffusion: Revolutionising Autonomous Drone Training with Diffusion Models Generating FPV Video - arXiv, https://arxiv.org/html/2509.14082v1
- [Revue de papier] FlightDiffusion: Revolutionising Autonomous Drone Training with Diffusion Models Generating FPV Video - Moonlight, https://www.themoonlight.io/fr/review/flightdiffusion-revolutionising-autonomous-drone-training-with-diffusion-models-generating-fpv-video
- [Papierüberprüfung] FlightDiffusion: Revolutionising Autonomous Drone Training with Diffusion Models Generating FPV Video - Moonlight, https://www.themoonlight.io/de/review/flightdiffusion-revolutionising-autonomous-drone-training-with-diffusion-models-generating-fpv-video
- [Literature Review] FlightDiffusion: Revolutionising Autonomous Drone Training with Diffusion Models Generating FPV Video - Moonlight, https://www.themoonlight.io/review/flightdiffusion-revolutionising-autonomous-drone-training-with-diffusion-models-generating-fpv-video
- (PDF) FlightDiffusion: Revolutionising Autonomous Drone Training with Diffusion Models Generating FPV Video - ResearchGate, https://www.researchgate.net/publication/395582775_FlightDiffusion_Revolutionising_Autonomous_Drone_Training_with_Diffusion_Models_Generating_FPV_Video
- [2509.14082] FlightDiffusion: Revolutionising Autonomous Drone Training with Diffusion Models Generating FPV Video - arXiv, https://arxiv.org/abs/2509.14082
- FlightDiffusion: Revolutionising Autonomous Drone Training with Diffusion Models Generating FPV Video - arXiv, https://arxiv.org/html/2509.14082v2
- UAV-based Navigation and Grid Mapping Using Semantic Observations - QUT ePrints, https://eprints.qut.edu.au/237950/1/Nicolas%2BMandel%2BThesis%283%29.pdf
- [2410.12988] Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation - arXiv, https://arxiv.org/abs/2410.12988
- Safe Landing Zones Detection for UAVs Using Deep Regression - ResearchGate, https://www.researchgate.net/publication/361224879_Safe_Landing_Zones_Detection_for_UAVs_Using_Deep_Regression
- VisLanding: Monocular 3D Perception for UAV Safe Landing via Depth-Normal Synergy, https://arxiv.org/html/2506.14525v1
- A Real-Time and Multi-Sensor-Based Landing Area Recognition System for UAVs - MDPI, https://www.mdpi.com/2504-446X/6/5/118
- Drone AI-Based Terrain Following - Meegle, https://www.meegle.com/en_us/topics/autonomous-drones/drone-ai-based-terrain-following
- Long-Term Visual Localization Revisited - Chalmers Research, https://research.chalmers.se/publication/529149/file/529149_Fulltext.pdf
- Long-Term Visual Localization Revisited - IMPACT, https://impact.ciirc.cvut.cz/wp-content/uploads/2020/10/Toft2020PAMI.pdf
- Evaluation of Long-term Deep Visual Place Recognition - SciTePress, https://www.scitepress.org/PublishedPapers/2022/108347/108347.pdf
- Distributed training of CosPlace for large-scale visual place recognition - Frontiers, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2024.1386464/full
- Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2021/papers/Hausler_Patch-NetVLAD_Multi-Scale_Fusion_of_Locally-Global_Descriptors_for_Place_Recognition_CVPR_2021_paper.pdf
- MS-NetVLAD: Multi-Scale NetVLAD for Visual Place Recognition - ResearchGate, https://www.researchgate.net/publication/382411414_MS-NetVLAD_Multi-Scale_NetVLAD_for_Visual_Place_Recognition
- Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition, https://www.researchgate.net/publication/349776464_Patch-NetVLAD_Multi-Scale_Fusion_of_Locally-Global_Descriptors_for_Place_Recognition
- Distributed training of CosPlace for large-scale visual place recognition - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC11145398/
- CLOUD: Canadian Longterm Outdoor UAV Dataset | Dynamic Systems Lab | Prof. Angela Schoellig, https://www.dynsyslab.org/cloud-dataset/
- Certifiable Transformer-Based Sensor Fusion Architecture for Urban Air Mobility, https://www.preprints.org/manuscript/202506.1814/v1
- Key Takeaways from IROS 2023: Insights into the Future of Robotics - Medium, https://medium.com/d-classified/key-takeaways-from-iros-2023-insights-into-the-future-of-robotics-6e2b87eefc1c